智能论文笔记

Guaranteed Discovery of Controllable Latent States with Multi-Step Inverse Models

Alex Lamb , Riashat Islam , Yonathan Efroni , Aniket Didolkar , Dipendra Misra , Dylan Foster , Lekan Molu , Rajan Chari , Akshay Krishnamurthy , John Langford

分类：机器学习 | 机器人 | (统计)机器学习

2022-07-17

一个沿着城市街道行走的人试图对世界各个方面进行建模，这很快就会被许多商店，汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务，不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态，这是代理在世界上成功采取行动的必要和足够的？我们具体地提出了这个问题，并提出了可控制的状态发现算法（AC-State），该算法具有理论保证，并且实际上被证明可以发现\ textit {最小可控的潜在状态}，其中包含所有用于控制控制的信息代理，同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型（预测遥远观察结果的动作）组成。 AC-State可以在没有奖励或示威的情况下实现本地化，探索和导航。我们证明了在三个领域中发现可控潜在状态的发现：将机器人组分散注意力（例如，照明条件和背景变化），与其他代理商一起在迷宫中进行探索，并在Matterport House Simulator中导航。

translated by 谷歌翻译

考虑互动学习的问题设定（IGL），其中学习者的目标是与环境进行最佳互动，而无需明确的奖励以依靠其政策。代理商观察上下文向量，采取行动并接收反馈向量，并使用此信息有效地优化潜在奖励功能的策略。当反馈向量包含该动作时，事先分析的方法失败了，这在许多潜在方案中显着限制了IGL的成功，例如脑部计算机界面（BCI）或人类计算机界面（HCI）应用程序。我们通过创建算法和分析来解决这一问题，该算法和分析即使反馈向量包含以任何方式编码的动作，允许IGL起作用。我们根据监督数据集提供理论保证和大规模实验，以证明新方法的有效性。

translated by 谷歌翻译